Thực hiện Q-learning_(học_tăng

Thực hiện Q-learning_(học_tăng_cường)

Q -learning tại đơn giản nhất lưu trữ dữ liệu trong bảng. Cách tiếp cận này chùn bước với số lượng trạng thái / hành động ngày càng tăng.

Xấp xỉ hàm

Q -learning có thể được kết hợp với xấp xỉ hàm.[9] Điều này cho phép áp dụng thuật toán cho các vấn đề lớn hơn, ngay cả khi không gian trạng thái liên tục.

Một giải pháp là sử dụng một mạng nơ ron nhân tạo (thích nghi) như một hàm xấp xỉ hàm.[10] Xấp xỉ hàm có thể tăng tốc độ học tập trong các vấn đề hữu hạn, do thực tế là thuật toán có thể khái quát hóa các kinh nghiệm trước đó cho các trạng thái chưa từng thấy trước đây.

Lượng tử hóa

Một kỹ thuật khác để giảm không gian trạng thái / hành động định lượng các giá trị có thể. Hãy xem xét ví dụ về việc học cách cân bằng một cây gậy trên ngón tay. Để mô tả trạng thái tại một thời điểm nhất định liên quan đến vị trí của ngón tay trong không gian, vận tốc của nó, góc của thanh và vận tốc góc của thanh. Điều này mang lại một vectơ bốn phần tử mô tả một trạng thái, tức là ảnh chụp nhanh của một trạng thái được mã hóa thành bốn giá trị. Vấn đề là vô số trạng thái có thể có mặt. Để thu hẹp không gian có thể của các hành động hợp lệ, nhiều giá trị có thể được gán cho một nhóm. Khoảng cách chính xác của ngón tay từ vị trí bắt đầu của nó (- vô cực đến + vô cực) không được biết, mà là nó có ở xa hay không (Gần, Xa).

Tài liệu tham khảo

WikiPedia: Q-learning_(học_tăng_cường) http://webdocs.cs.ualberta.ca/~sutton/book/ebook/n... http://papers.nips.cc/paper/3964-double-q-learning http://www.bkgm.com/articles/tesauro/tdl.html //edwardbetts.com/find_link?q=Q-learning_(h%E1%BB%... //books.google.com/books?id=YPjNuvrJR0MC //books.google.com/books?id=clKwynlfZYkC&pg=PA320-... //books.google.com/books?id=mGtQAAAAMAAJ&pg=PA397 //books.google.com/books?id=oLcAiySCow0C http://www.research.ibm.com/infoecon/paps/html/ijc... http://www.leemon.com/papers/1995b.pdf